Etiquetario morfosintáctico del SLI para corpus de lengua gallega: aplicación al corpus paralelo TECTRA
نویسندگان
چکیده
In this article we present a complete and normalized morphosyntactic tagset for the annotation of linguistic corpora in Galician. The elaboration of this tagset, designed by the Computational Linguistics Group (SLI) of the University of Vigo, following strictly the EAGLES recommendations (Leech and Wilson, 1996), includes the creation of an intermediate tagset that allows us to establish a correspondence between the grammatical information encoded for Galician in the CLUVI (Linguistic Corpus of the University of Vigo) and the information encoded in the EAGLES standard format in corpora of other languages.
منابع مشابه
Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega
Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...
متن کاملMatxin-Informatika: versión del traductor Matxin adaptada al dominio de la informática
Desarrollo de un corpus de postedición para su uso en postedición estadística Recopilación de corpus paralelo ● Del dominio de la informática ● Creado en la localización de Sw Tratamiento del corpus ● Analizado, lematizado y procesado con Giza++ ● Para cada lema (es) se extraen: ● sus posibles traducciones (eu) ● y su probabilidad Uso ● Reordenación de equivalencias en 444 entradas del lexicón ...
متن کاملAnálisis morfosintáctico estadístico en lengua gallega
This paper describes a morphosyntactic analyser in Galician which, apart from its obvious linguistic interest, can be easily applied to speech recognition and speech synthesis systems. While rule-driven models produce the better performance, stochastic models have shown a comparable accuracy when properly designed. Moreover, rule-driven models are based on a complex set of linguistic rules, qui...
متن کاملCorpus morfológicamente representativo: preparación de datos y compilación para el español
Resumen. El problema de compilación automática de los corpus es uno de los problemas importantes de lingüística computacional. En los corpus tradicionales algunas palabras tienen demasiada ocurrencia y algunas tienen poca o ninguna ocurrencia según la ley de distribución de palabras de acuerdo a su rango: la ley de Zipf. En el trabajo proponemos el concepto del corpus representativo morfológica...
متن کاملAlgoritmo evolutivo paralelo para aplicaciones en tomografía sísmica
Resumen. En este trabajo se realiza la paralelización sobre una Unidad de Procesamiento de Gráficos de la función de evaluación de una Evolución Diferencial (ED) que tiene como objetivo generar un modelo inicial de velocidades sísmicas en un volumen de la corteza terrestre. La función de evaluación incluye un algoritmo que traza los rayos sísmicos generados a partir de 7 fuentes de energía (sho...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 28 شماره
صفحات -
تاریخ انتشار 2002